屈折|词性_NLTK朴素贝叶斯,文本分类代码示例采样SMSSpamCollection数据集下载

作者：席钾攀 | 来源：互联网 | 2023-09-23 22:03

篇首语：本文由编程笔记#小编为大家整理，主要介绍了NLTK朴素贝叶斯,文本分类代码示例采样SMSSpamCollection数据集下载相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了NLTK朴素贝叶斯,文本分类代码示例采样 SMSSpamCollection数据集下载相关的知识，希望对你有一定的参考价值。

https://stackoverflow.com/

文本分类代码编译通过

import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv import numpy as np from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB import sklearn.metrics as metrics from sklearn import tree from sklearn.linear_model import SGDClassifier from sklearn.svm import LinearSVC from sklearn.ensemble import RandomForestClassifier # 文本清洗预处理 def preprocessing(text): # text &＃61; text.encode("gbk").decode("utf8") # tokons to word 句子标记解析单词标记解析 tokens &＃61; [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)] # print("单词标记解析&＃xff1a;", tokens) # 停用词删除 stop &＃61; stopwords.words(&＃39;english&＃39;) tokens &＃61; [token for token in tokens if token not in stop] # print("停用词删除", tokens) # 单词字数小于3删除并转换成小写 tokens &＃61; [word.lower() for word in tokens if len(word) >&＃61; 3] # print("字数小于3删除", tokens) # lemmatize # 把&＃xff08;文中的词&＃xff09;按屈折变化形式&＃xff08;或异体形式&＃xff09;进行归类 lemter &＃61; WordNetLemmatizer() tokens &＃61; [lemter.lemmatize(word) for word in tokens] # print("词性归类", tokens) preprosses_text &＃61; " ".join(tokens) # print("处理后的文本&＃xff1a;", preprosses_text) return preprosses_text with open(&＃39;SMSSpamCollection&＃39;, &＃39;r&＃39;, newline&＃61;&＃39;&＃39;, encoding&＃61;&＃39;mac_roman&＃39;) as csvfile: smsdata_data &＃61; [] sms_lablel &＃61; [] csv_reader &＃61; csv.reader(csvfile, delimiter&＃61;&＃39;\\t&＃39;) for line in csv_reader: sms_lablel.append(line[0]) smsdata_data.append(preprocessing(line[1])) csvfile.close() print(&＃39;smsdata_data&＃39;, smsdata_data) print(&＃39;sms_lablel&＃39;, sms_lablel) # 采样 # 训练集和样本集分开 7&＃xff1a;3 trainset_size &＃61; int(round(len(smsdata_data)*0.70)) # i chose this threshold for 70:30 train and test split. print(&＃39;The training set size for this classifier is &＃39; &＃43; str(trainset_size) &＃43; &＃39;\\n&＃39;) x_train &＃61; np.array([&＃39;&＃39;.join(el) for el in smsdata_data[0:trainset_size]]) y_train &＃61; np.array([el for el in sms_lablel[0:trainset_size]]) x_test &＃61; np.array([&＃39;&＃39;.join(el) for el in smsdata_data[trainset_size&＃43;1:len(smsdata_data)]]) # or el in sms_labels[trainset_size&＃43;1:len(sms_lablel)]]) y_test &＃61; np.array([el for el in sms_lablel[trainset_size&＃43;1:len(sms_lablel)]]) print("x_train&＃xff1a;&＃61;&＃61;&＃61;&＃61;", x_train) print("y_train:&＃61;&＃61;&＃61;&＃61;", y_train) # 术语文档矩阵 bow 词袋 with open(&＃39;SMSSpamCollection&＃39;, &＃39;r&＃39;, newline&＃61;&＃39;&＃39;, encoding&＃61;&＃39;mac_roman&＃39;) as csvfile: sms_exp &＃61; [] csv_reader &＃61; csv.reader(csvfile, delimiter&＃61;&＃39;\\t&＃39;) for line in csv_reader: sms_exp.append(preprocessing(line[1])) vectorizer &＃61; CountVectorizer(min_df&＃61;1) X_exp &＃61; vectorizer.fit_transform(sms_exp) print("||".join(vectorizer.get_feature_names())) print(&＃39;X_exp>>>>>&＃39;, X_exp.toarray()) csvfile.close() # TF/IDF vectorizer &＃61; TfidfVectorizer(min_df&＃61;2, ngram_range&＃61;(1, 2), stop_words&＃61;&＃39;english&＃39;, strip_accents&＃61;&＃39;unicode&＃39;, norm&＃61;&＃39;l2&＃39;) X_train &＃61; vectorizer.fit_transform(x_train) X_test &＃61; vectorizer.transform(x_test) print(&＃39;x_train:.....>>>>&＃39;, X_train) print(&＃39;x_test:>>>>>>>&＃39;, X_test) # 朴素贝叶斯朴素贝叶斯分类器 clf &＃61; MultinomialNB().fit(X_train, y_train) y_nb_predicted &＃61; clf.predict(X_test) print("y_nb_predicted>>", y_nb_predicted) print(&＃39;\\n confusion_matrix \\n &＃39;) cm &＃61; metrics.confusion_matrix(y_test, y_nb_predicted) print(cm) print(&＃39;\\n Here is the classification report:&＃39;) print(metrics.classification_report(y_test, y_nb_predicted)) # 得到前n个特征值 feature_names &＃61; vectorizer.get_feature_names() coefs &＃61; clf.coef_ intercept &＃61; clf.intercept_ coefs_with_fns &＃61; sorted(zip(clf.coef_[0], feature_names)) n &＃61; 15 top &＃61; zip(coefs_with_fns[:n], coefs_with_fns[:-(n &＃43; 1):-1]) for (coef_1, fn_1), (coef_2, fn_2) in top: print(&＃39;\\t%.4f\\t%-15s\\t\\t%.4f\\t%-15s&＃39; % (coef_1, fn_1, coef_2, fn_2)) # 决策树分类器 # clf &＃61; tree.DecisionTreeClassifier.fit(X_train.toarray(), y_train) # y_tree_predicted &＃61; clf.predict(X_test.toarray()) # print(y_tree_predicted) # print(&＃39; \\n Here is the classification report: y_tree_predicted&＃39;) # print(metrics.classification_report(y_test, y_tree_predicted)) # 随机梯度下降 clf &＃61; SGDClassifier(alpha&＃61;0.001, max_iter&＃61;50).fit(X_train, y_train) y_pred &＃61; clf.predict(X_test) print(&＃39;\\n Here is the classification report:&＃39;) print(metrics.classification_report(y_test, y_pred)) print(&＃39; \\n confusion_matrix \\n &＃39;) cm &＃61; (metrics.confusion_matrix(y_test, y_pred)) print(cm) # 支持向量机 svm_classifier &＃61; LinearSVC().fit(X_train, y_train) y_svm_predicted &＃61; svm_classifier.predict(X_test) print(&＃39;\\n Here is the classification report:&＃39;) print(metrics.classification_report(y_test, y_svm_predicted)) print(&＃39; \\n confusion_matrix \\n &＃39;) cm &＃61; (metrics.confusion_matrix(y_test, y_svm_predicted)) print(cm) # 随机森林 # RandomForestClassifier clf &＃61; RandomForestClassifier(n_estimators&＃61;10) clf.fit(X_train, y_train) y_RF_pred &＃61; clf.predict(X_test) print(&＃39;RF_confusion_matrix:&＃39;) print(metrics.confusion_matrix(y_test, y_RF_pred)) print(&＃39;RF_classification_report:&＃39;) print(metrics.classification_report(y_test, y_RF_pred))

UCI垃圾邮件数据集下载

http://archive.ics.uci.edu/ml/datasets/SMS&＃43;Spam&＃43;Collection

推荐阅读

split
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
int
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
const
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
match
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
const
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
split
java drools5_Java Drools5.1 规则流基础【示例】（中）

五、规则文件及规则流EduInfoRule.drl:packagemyrules;importsample.Employ;ruleBachelorruleflow-group ... [详细]

蜡笔小新 2023-12-10 15:01:31
install
tcpdump 4.5.1 crash 深入分析

tcpdump 4.5.1 crash 深入分析 ... [详细]

蜡笔小新 2023-12-09 07:11:34
range
七月在线爬虫班学习笔记（七）——高级内容-并发编程

第七课主要内容：多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]

蜡笔小新 2023-10-17 20:16:36
io
python 终止函数命令_如何使“停止”按钮终止已经在Tkinter（Python）中运行的“启动”函数...

我用Tkinter制作了一个图形用户界面，有两个主按钮：“开始”和“停止”。请您就如何使用“停止”按钮终止“开始”按钮为以下代码调用的已运行功能提供建议 ... [详细]

蜡笔小新 2023-10-17 20:02:38
split
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
range
python字符串随机生成密码_Mac OS生成随机密码的Python脚本

很多时候在注册一些比较重要的帐号，或者使用一些比较重要的接口的时候，需要使用到随机字符串，为了方便，我们设计这个脚本需要注意 ... [详细]

蜡笔小新 2023-10-17 18:20:12
range
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
range
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
range
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
int
Python拼接字符串的七种方式

这篇文章主要介绍了Python拼接字符串的七种方式，包括使用%、format()、join()、f-string等方法。每种方法都有其特点和限制，通过本文的介绍可以帮助读者更好地理解和运用字符串拼接的技巧。 ... [详细]

蜡笔小新 2023-12-12 11:15:18

席钾攀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章